Teoria wnioskowania statystycznego jasno określa korzyści związane z dużą liczebnością próby badawczej. Wraz ze wzrostem wielkości próby maleje ilość błędów ocen szacowanych parametrów populacji (zwiększa się precyzja estymacji), a także rosną wartości mocy testów wykorzystywanych do weryfikacji hipotez statystycznych. Współczesne możliwości łatwego dotarcia do dużych prób badawczych (np. paneli internetowych), a także korzystania z coraz bardziej zaawansowanego i przyjaznego dla użytkownika oprogramowania statystycznego sprzyjają niedostrzeganiu zagrożeń dla wnioskowania statystycznego, jakie wiążą się z dużymi liczebnie próbami. Część badaczy ulega iluzji, że duża próba jest w stanie zniwelować i rozproszyć nie tylko błąd losowy, charakterystyczny dla każdej techniki losowania próby, lecz także błędy nielosowe. Znaczenie dużej liczebności próby jest ponadto jednym z ważnych aspektów toczącej się od kilkunastu lat dyskusji na temat istotności statystycznej (p-value) oraz problemów z jej rozstrzyganiem i interpretowaniem.
Celem opracowania jest wskazanie i omówienie konsekwencji dostrzegania w dużych próbach statystycznych jedynie szans, a pomijanie wyzwań i zagrożeń wynikających z ich stosowania. W artykule pokazano, że duża liczebność próby, której doboru dokonano za pomocą techniki nieprobabilistycznej, nie może stanowić alternatywy dla wyboru losowego. W szczególności dotyczy to internetowych paneli wolontariuszy deklarujących chęć udziału w badaniu. Wskazano ponadto na znaczenie komponentu nielosowego w błędzie próbkowania, który nie jest malejącą funkcją liczebności próby. W odniesieniu zaś do współczesnych problemów weryfikacji hipotez nakreślono i zilustrowano przykładem naukowy i etyczny wymiar podążania za istotnością statystyczną z wykorzystaniem dużych liczebnie prób lub wielokrotnego próbkowania.
wnioskowanie statystyczne, błąd próbkowania, błąd losowy, liczebność próby, istotność statystyczna, p-value
C12, C13, C18, D80
American Association for Public Opinion Research. (2010, czerwiec). AAPOR Report on Online Panels. https://www.aapor.org/Education-Resources/Reports/Report-on-Online-Panels.aspx.
Amrhein, V., Greenland, S., McShane, B. (2019, 20 marca). Scientists rise up against statistical significance. https://www.nature.com/articles/d41586-019-00857-9.
Amrhein, V., Trafimow, D., Greenland, S. (2019). Inferential Statistics as Descriptive Statistics: There Is No Replication Crisis if We Don’t Expect Replication. The American Statistician, 73(Sup1), 262–270. https://doi.org/10.1080/00031305.2018.1543137.
Barnett, V. (1991). Sample Survey. Principles and Methods (2nd edition). Edward Arnold.
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., Bollen, K. A., Brembs, B., Brown, L., Camerer, C., Cesarini, D., Chambers, C. D., Clyde, M., Cook, T. D., De Boeck, P., Dienes, Z., Dreber, A., Easwaran, K., Eferson, C., ... Johnson, V. E. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6–10. https://doi.org/10.1038/s41562-017-0189-z.
Bracha, C. (1998). Metoda reprezentacyjna w badaniu opinii publicznej i marketingu. Efekt.
Cochran, J. (2015, 1 lutego). ASA Leaders Reminisce. Peter (Tony) Lachenbruch. http://magazine.amstat.org/blog/2015/02/01/peterlachenbruch_feb2015/.
Curtice, J. (2016). The Benefits of Random Sampling. Lessons from the 2015 UK General Election. NatCen Social Research. https://www.bsa.natcen.ac.uk/media/39018/random-sampling.pdf.
Fricker Jr., R. D., Burke, K., Han, X., Woodall, W. H. (2019). Assessing the Statistical Analyses Used in Basic and Applied Social Psychology After Their p-Value Ban. The American Statistician, 73(Sup1), 374–384. https://doi.org/10.1080/00031305.2018.1537892.
Gelman, A. (2013). P values and statistical practice. Epidemiology, 24(1), 69–72. https://doi.org/10.1097/EDE.0b013e31827886f7.
Gelman, A., Stern, H. (2006). The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant. The American Statistician, 60(4), 328–331. https://doi.org/10.1198/000313006X152649.
Guo, S., Fraser, M. W. (2015). Propensity Score Analysis. Statistical Methods and Applications (2nd edition). Sage Publications.
Hirschauer, N., Grüner, S., Mußhoff, O., Becker, C., Jantsch, A. (2020). Can p-values be meaningfully interpreted without random sampling?. Statistics Surveys, 14, 71–91. https://doi.org/10.1214/20-SS129.
Hirschauer, N., Grüner, S., Mußhoff, O., Becker, C., Jantsch, A. (2021). Inference using non- -random samples? Stop right there!. Significance, 18(5), 20–24. https://doi.org/10.1111/1740-9713.01568.
Kordos, J. (2014). Od twierdzenia Jakuba Bernoulliego do współczesnych badań reprezentacyjnych. Wiadomości Statystyczne, 59(3), 1–23. https://ws.stat.gov.pl/Article/2014/3/001-023.
Kozłowski, A., Szreder, M. (2020). Informacje spoza próby w badaniach statystycznych. Wydawnictwo Uniwersytetu Gdańskiego.
Lempert, R. (2009). The Significance of Statistical Significance: Two Authors Restate An Incontrovertible Caution. Why A Book?. Law & Social Inquiry, 34(1), 225–249. https://doi.org/10.1111/j.1747-4469.2009.01144.x.
Lin, M., Lucas Jr., H. C., Shmueli, G. (2013). Too Big to fail: Large Samples and the p-Value Problem. Information Systems Research, 24(4), 906–917. http://doi.org/10.1287/isre.2013.0480.
Mahalanobis, P. C. (1951). Professional Training in Statistics. Bulletin of the International Statistical Institute, 33(5), 335–342.
Mellon, J., Prosser, C. (2017). Missing nonvoters and misweighted samples. Explaining the 2015 great British polling miss. Public Opinion Quarterly, 81(3), 661–687. https://doi.org/10.1093/poq/nfx015.
Mercer, A. W., Kreuter, F., Keeter, S., Stuart, E. A. (2017). Theory and practice in nonprobability surveys. Parallels between causal inference and survey inference. Public Opinion Quarterly, 81(1), 250–271. https://doi.org/10.1093/poq/nfw060.
Platek, R., Särndal, C. E. (2001). Czy statystyk może dostarczyć dane wysokiej jakości?. Wiadomości Statystyczne, 46(4), 1–21.
Rosenbaum, P. R., Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55. https://doi.org/10.1093/biomet/70.1.41.
Sauvé, J.-M. (2021). Sexual Violence in the Catholic Church France 1950–2020. Summary of the Final Report Independent Commission on Sexual Abuse in the Catholic Church (CIASE). https://www.ciase.fr/medias/Ciase-Summary-of-the-Final-Report-5-october-2021.pdf.
Särndal, C. E., Lundström, S. (2006). Estimation in Surveys with Nonresponse. John Wiley & Sons. Sturgis, P., Baker, N., Callegaro, M., Fisher, S., Green, J., Jennings, W., Kuha, J., Lauderdale, B., Smith, P. (2016). Report of the Inquiry into the 2015 British general election opinion polls. London: Market Research Society and British Polling Council. https://eprints.ncrm.ac.uk/id/eprint/3789/1/Report_final_revised.pdf.
Szreder, M. (2010). Metody i techniki sondażowych badań opinii. Polskie Wydawnictwo Ekonomiczne.
Szreder, M. (2017). Nowe źródła informacji i ich wykorzystanie w podejmowaniu decyzji. Wiadomości Statystyczne, 62(7), 5–17. https://doi.org/10.5604/01.3001.0014.0972.
Szreder, M. (2019). Istotność statystyczna w czasach big data. Wiadomości Statystyczne. The Polish Statistician, 64(11), 42–57. https://doi.org/10.5604/01.3001.0013.7583.
Szymczak, W. (2018). Praktyka wnioskowania statystycznego. Wydawnictwo Uniwersytetu Łódzkiego. Szymkowiak, M. (2019). Podejście kalibracyjne w badaniach społeczno-ekonomicznych. Wydawnictwo Uniwersytetu Ekonomicznego w Poznaniu.
Trafimow, D. (2014). Editorial. Basic and Applied Social Psychology, 36(1), 1–2. https://doi.org/10.1080/01973533.2014.865505.
Wasserstein, R. L., Lazar, N. A. (2016). The ASA’s Statement on p-Values: Context, Process and Purpose. The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108.
Ziliak, S. T., McCloskey, D. N. (2008). The Cult of Statistical Significance. How the Standard Error Costs Us Jobs, Justice, and Lives. University of Michigan Press.